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近年 来 , 越 来 越 多 的 国内 外 互联 网 公司 和 传统 企业 都 已 意识 到 数据 资产 规模 化 带 来 的 洲 


在 价值 。 这 些 呈 爆炸 性 增长 的 数据 资产 的 类 型 以 非 结 构 化 和 


结构 化 为 主 ， 如 何 低 成 本 且 高 


效率 地 存储 和 处 理 PB 至 EB“ 量 级 的 数据 成 为 业界 面临 的 极 大 挑战 。 谷 歌 〈Google) 公司 陆 
续 提 出 了 MapReducer 编程 框架 ，GFS” 文 件 系 统 趾 以 及 BigTable™ 存储 系统 ， 从 而 成 为 大 


数据 处 理 技术 的 开拓 者 和 领导 者 。 而 源 于 这 三 项 技术 的 Apache Hadoop 中 等 开源 项 目 则 成 为 
大 数据 处 理 技术 的 事实 标准 ， 迅 速 推广 应 用 于 国内 外 各 大 互联 网 企业 ， 成 为 PB 量 级 大 数据 
处 理 的 成 熟 技 术 和 系统 。 天 现 大 数据 处 理 引擎 是 构建 在 Hadoop 之 上 的 面向 大 数据 计算 (Big 
Data Computing) 的 工具 集 ， 其 中 包含 了 很 多 天 现 团 队 既 有 的 研究 成 果 。 这 些 研究 成 果 已 在 互 


联网 公司 实际 生产 系统 上 经 受 住 考验 ， 如 RCFile 已 应 月 


日 到 Facebook( 脸 书 ) 公司 ，CCIndex 


已 应 用 于 淘宝 网 的 “数据 魔方 "天 丽 Base 已 应 用 到 腾讯 “ 广 点 通 ” 等 。 这 些 关 键 技 术 构 成 


了 天 现 大 数据 处 理 引擎 的 核心 竞争 力 ， 软 件 的 生态 环境 也 借 


2 “大 数据 处 理 技术 现状 


2.1 谷歌 


谷歌 在 搜索 引擎 上 所 获得 的 巨大 成 功 ,很 大 程度 上 是 
时 技术, 是 针对 搜索 引擎 所 面临 的 日 益 膨胀 的 海量 数据 存 


里 问题 而 设计 的 。 


针对 内 部 网 络 数据 规模 超大 的 特点 , 谷歌 提 H 


源 社区 得 到 良性 发 展 。 


架构 技术 , 利用 软件 的 能 力 来 处 理 集群 中 经 常 发 4 


包括 四 个 相互 独立 又 紧密 结合 在 一 起 的 系统 : 


BigTable。 


上 了 一 整套 基于 分 布 式 并 行 集群 方式 的 基础 
E 的 节点 失效 问题 。 谷 歌 使 用 的 大 数据 平台 
谷歌 文件 系统 〈GFS)， 针 对 谷歌 应 用 程序 的 
特点 提出 的 MapReduce 编程 模式 ， 分 布 式 的 锁 机 制 Chubby 以 及 大 规模 分 布 式 数据 库 


| 于 采用 了 先进 的 大 数据 管理 和 处 
嵌 问 题 以 及 在 此 之 上 的 海量 数据 处 


GFS 是 一 个 大 型 的 分 布 式 文件 系统 ， 它 为 谷歌 云 计算 提供 海量 存储 ， 并 且 与 Chubby、 


MapReduce 和 BigTable 等 技术 结合 得 十 分 紧密 ， 处 于 系统 的 底层 。 它 与 传统 的 分 布 式 文件 
系统 有 许多 相同 的 目标 ， 例 如 性 能 、 可 伸缩 性 、 可 靠 怕 


E 以 及 可 用 性 。 除 此 之 外 ， 它 的 设计 还 


受到 谷歌 应 用 负载 和 技术 环境 的 影响 。 相 对 于 传统 的 分 布 式 文件 系统 ,为 了 达到 成 本 、 可 靠 
性 和 性 能 的 最 佳 平衡 ，GFS 从 多 个 方面 进行 了 简化 : (D) 采用 集中 式 元 数据 管理 ，(2) 不 组 


存 数据 ; (3) 在 用 户 态 下 实现 ，(4) 只 提供 专用 接口 
态 , 提供 了 极 强 的 系统 容错 功能 ; 设置 三 个 数据 块 吕 


和 版 本 控制 的 双重 保证 数据 一 致 性 ,， 即 数据 块 


”102 (〈 千 万 亿 ) 字 节 
“10 〈 百 亿 亿 ) 字 节 
” Google File System， 和 谷歌 公司 为 了 存储 海量 搜索 数 ] 


的 所 有 在 线 


而 设计 的 专 ) 


文件 
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。 另 外 ，GFS 将 节点 失效 视 为 系统 的 党 
J 本 ， 以 增强 数据 可 靠 性 ， 使 用 了 链 式 写 
副本 


成 一 条 写 更 新 链 , 用 户 进行 


系统 


天 丽 大 数据 


沪 


理 引 擎 关键 技术 及 应 用 


写 操 作 时 ， 数 据 链 式 写 入 所 有 副本 ， 当 链 上 的 所 有 副本 都 完成 更 新 后 ， 写 操作 才 会 成 功 ， 并 
更 新 对 应 数据 块 的 版 本 号 。 


MapReduce 是 处 理 海 量 数 据 的 并 行 编程 模式 ， 用 于 大 规模 数据 集 的 并 行 运算 。 
MapReduce 通过 “Map (映射 )” 和 “Reduce〈 化 简 )” 这 样 两 个 简单 的 概念 来 参加 和 运算。 用 
户 只 需要 提供 自己 的 Map 函数 以 及 Reduce 函数 就 可 以 在 集群 上 进行 大 规模 的 分 布 式 数据 
处 理 。 这 一 编程 环境 能 够 使 程序 设计 人 员 编 写 大 规模 的 并 行 应 用 程序 时 不 用 考虑 集群 的 可 靠 
性 、 可 扩展 性 等 问题 。 应 用 程序 编号 人 员 只 需要 将 精力 放 在 应 用 程序 本 身 ， 关 于 集群 的 处 理 
问题 则 交 由 平台 来 完成 。 与 传统 的 分 布 式 程序 设计 相 比 ，MapReduce 封装 了 并 行 处 理 、 容 
普 处 理 、 本 地 化 计算 、 负 载 均 衡 等 细节 ， 且 有 简单 而 强大 的 接口 。 正 是 由 于 MapReduce 具 
有 函数 式 编程 语言 和 矢量 编程 语言 的 共性 , 使 得 这 种 编程 模式 特别 适合 于 非 结构 化 和 结构 化 
的 海量 数据 的 搜索 、 挖 据 、 分 析 等 应 用 。 


Chubby 是 提供 粗 粒 度 锁 服务 的 一 个 文件 系统 ， 它 基于 松 耦 合 分 布 式 文件 系统 ， 解 决 了 
分 布 的 一 致 性 问题 。 这 种 锁 只 是 一 个 建议 性 的 锁 而 不 是 强制 性 的 锁 。 通 过 使 用 Chubby 的 锁 
服务 ， 用 户 可 以 确保 数据 操作 过 程 中 的 一 致 性 。GFS 使 用 Chubby 来 选取 一 个 GFS 主 服务 
器 ，BigTable 使 用 Chubby 指定 一 个 主 服务 器 并 发 现 、 控 制 与 其 相关 的 子 表 服 务 器 。 


AN 大 规模 分 布 式 数 据 库 BigTable 是 基于 GFS 和 Chubby 开发 的 分 布 式 存储 系统 。 很 多 应 
CN 用 程序 对 于 数据 的 组 织 是 非常 有 规则 的 。 一 般 来 说 , 数据 库 对 于 处 理 格式 化 的 数据 还 是 非常 
方便 的 。 但 是 由 于 关系 数据 库 要 求 很 强 的 一 致 性 ， 很 难 将 其 扩展 到 很 大 的 规模 。 为 了 处 理 谷 
号 歌 内 部 大 量 的 格式 化 以 及 半 格 式 化 数据 ， 谷 歌 构 建 了 弱 一 致 性 要 求 的 大 规模 数据 库 系 统 
OO BigTable。BigTablede 在 很 多 方面 和 数据 库 类 似 ， 但 它 并 不 是 真正 意义 上 的 数据 库 。 谷 歌 包 

括 Web 索引 、 卫 星 图 像 数据 等 在 内 的 很 多 海量 结构 化 和 半 结 构 化 数据 都 是 存储 在 BigTable 
的 。BigTable 的 内 容 按照 行 来 划分 ， 将 多 个 行 组 成 一 个 小 表 〔Tablet), 保存 到 某 一 个 服务 
器 节点 中 。 


二 2.2 Hadoop 


Apache Nutch 是 Hadoop 的 源 HDFS 架 构 
二 头 。 该 项 目 始 于 2002 年 ,是 Apache 一 一 和 ee 
© Lucene 的 子 项 目 之 一 。 当 时 的 系 元 (名字 节 点 0 ) 
统 架构 尚 无 法 扩展 到 存储 并 处 理 次 
拥有 数 十 亿 网 页 的 网 络 化 数据 。 谷 起 和 
数据 节点 数据 节点 


歌 在 2003 年 在 SOSP“ 上 公开 了 描 

述 其 分 布 式 文件 系统 的 论文 The El 可 国 制作 复 本 | 贺 
Google File System 〈《 谷 歌 文件 系 

统 》), 为 Nutch 提供 了 及 时 的 帮助 。 2 
2004 年 ，Nutch 的 分 布 式 文件 系统 ”|/ 写 

(NDFS”) 开 始 开发 。 同 年 ， 谷 歌 在 客户 

pn ce ale ai 图 1。 HDFS 组 成 及 实现 原理 
Simplified Data Pro cessing on 


Large Clusters (《MapReduce 一 简化 的 大 规模 集群 数据 处 理 》) 的 论文 ， 受 到 局 发 的 道 . 卡 廷 


4 Symposium on Operating Systems Principles， 操 作 系 统 原理 会 议 
”Nutch Distributed File System 
6 Operating Systems Design and Implementation， 操 作 系统 设计 与 实现 国际 会 议 
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(Doug Cutting) 等 人 


而 独立 的 软件 
虎 (Yahoo! )， 还 


Hadoop 核心 


本 ， 是 一 个 高 可 靠 的 分 布 式 文件 系统 。 


(PB 级 ) 数据 ， 其 实现 原理 如 图 


HDFS 全 部 在 用 户 态 使 用 Java 语言 编写 。 
个 实例 ， 采 用 键 值 (Key-Value) 全 内 存 式 管理 模式 ， 用 于 管理 文件 系统 的 元 数据 。 


只 有 一 


开始 实现 MapReduce 计算 框架 
System) 结合 起 来 ， 共 同文 持 Nutch 的 主要 算法 。 
， 命 名 为 Hadoop。2008 年 初 ，Hadoop 成 为 Apache 的 顶级 项 目 ， 不 仅 用 于 雅 
在 众多 互联 网 企业 得 以 应 用 。 


两 部 分 组 成 : HDFS 和 MapReduce， 
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它 能 够 提供 
1 所 示 。 


高 大 中 


元 数据 包括 名 字 空 间 、 


副本 数量 及 位 置 、 


责 国 


的 数据 块 构成 , 客户 站 
数据 节点 交互 ， 写 入 或 读 出 数据 。 


出访 问 数据 时 经 


定 大 小 数据 块 的 存储 (通常 为 64MB)。 一 个 文件 (home/foo/data)i 
由 名 字 节 点 获得 数据 块 的 存储 位 置 ， 再 与 数据 块 所 在 的 


MapReduce 计算 框架 实现 了 1 


所 示 。 


人 


Us 


1 
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1 
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ss 


EM 三 人 全 ME ee NE 个 | 


MapReduce 编程 模型 示意 图 


当 一 个 MapReduce 作业 提交 给 Hadoop 集群 时 ,本 


断 ， 然 后 1 


作业 跟踪 程序 (Job Tracker) 挑选 空闲 的 任务 跟踪 器 〈Task Tracker) 对 数据 片断 


开行 地 执行 Map 任务 。 接 着 这 些 | 


Reduce 


数据 集合 作为 运算 结果 。 这 样 的 过 程 将 被 反 
复 执行 ， 直 到 MapReduce 作业 中 所 有 的 Map 


任务 和 Reduce 任务 执行 完毕 。 


虽然 在 Hadoop 中 有 名 的 是 MapReduce 
分 布 式 文件 系统 HDFS， 但 还 有 其 他 子 
发 的 工具 提供 配套 和 补充 性 服务 。 这 些 子 项 目 之 间 的 关系 如 图 3 所 示 。 


及 其 
项 目 支 持 


序 挑选 空闲 的 任务 跟踪 器 对 它们 并 行 


地 执行 


皇 务 ， 从 而 获得 和 每 个 键 值 相 对 应 的 


至 2006 年 ， 这 个 框架 逐渐 成 为 一 


其 中 HDFS 是 Google GFS 的 


一 


LF}: 率 的 数据 访问 和 


名 字 节 点 (NameNode， 


程 师 提出 的 MapReduce 编程 模型 ， 其 


Map 任务 产生 的 中 间 记 录 会 被 再 次 划分 并 由 作业 跟踪 程 


EEC 
MapReduce | HDFS 200 
Keeper 
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并 与 NDFS (Nutch Distributed File 


套 完整 


源 版 
# 力 ， 适 合 存储 海量 


可 


也 是 主 节 点 ) 在 系统 


文件 到 块 的 映射 和 关系。 数据 节点 〈DataNode) 负 


存储 在 多 个 数据 节点 上 


原理 如 图 2 


ssGese 


A 


CASA 


Batis HDFS 
1 > 复 本 


日 关 的 输入 数据 将 首先 被 划分 为 多 个 片 


Hadoop 各 组 成 部 分 之 间 的 关系 示 


图 3. 
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意图 


天 现 大 数据 处 理 引擎 关键 技术 及 应 用 


一 ”Core: 一 系列 分 布 式 文件 系统 和 通用 读 写 (MO) 的 组 件 和 接口 〈 序 列 化 、Java 远程 
调用 CRPC) 和 持久 化 数据 结构 ) 

一 ”Avro: 一 种 提供 高 效 、 跨 语言 远程 调用 的 数据 序列 系统 ， 持 久 化 数据 存储 

一 ”MapReduce: 分 布 式 数 据 处 理 模式 和 执行 环境 

一 ”HDFS: 以 块 数据 为 单位 存储 并 具有 副本 机 制 的 分 布 式 文件 系统 

一 ”Pig: 一 种 运行 在 MapReduce 和 HDFS 的 集群 上 的 高 层 (High Level) 数据 流 语言 和 
运行 环境 ， 用 以 检索 海量 数据 集 

一 ”HBase: 一 个 分 布 式 列 存储 数据 库 , 使 用 HDFS 作为 底层 存储 ， 同 时 文 持 MapReduce 
的 批 式 计算 和 点 查询 (随机 读 取 ) 

一 ”ZooKeeper: 一 个 分 布 式 高 可 用 的 协同 服务 ， 提 供 分 布 式 锁 相关 的 基本 服务 ， 用 于 文 
持 分 布 式 应 用 构建 

一 ”Hive: 分 布 式 数 据 仓 库 ， 用 于 管理 HDFS 中 存储 的 数据 ， 并 提供 基于 SQL 的 查询 语 
言 (由 运行 时 解释 引擎 转换 为 MapReduce 作业 ) 用 以 查询 数据 

一 ”Chukwa: 分 布 式 数 据 收集 和 分 析 系 统 ， 用 于 监控 大 规模 分 布 式 系 统 并 基于 HDFS 和 
MapReduce 生成 报告 。 


3 ”天 丽 大 数据 处 理 引 擎 


Hadoop 作为 Google 系统 的 开源 实现 已 经 在 互联 网 领域 得 以 广泛 的 应 用 。 国 外 企业 ， 如 
攻 虎 、Facebook、 亚 马 逊 (Amazon)、IBM 等 和 国内 企业 ， 如 百度 、 中 国 移动 、 淘 宝 、 腾 讯 、 
网 易 、 人 人 网 等 都 在 使 用 Hadoop 软件 。Hadoop 核心 以 及 外 围 工 具 和 服务 为 快速 构建 互联 
网 量 级 的 数据 处 理 提供 了 可 直接 使 用 的 工具 集 。 开 源 软件 的 众 包 特点 和 草根 特性 在 Hadoop 
软件 上 得 以 充分 体现 。 开源 软件 应 用 最 广泛 的 是 互联 网 公司 , 尤其 是 那些 开始 创业 的 小 企业 

(start-ups)， 在 技术 选 型 方面 LAMP ”、memcaches、Hadoop 是 他 们 的 软件 构件 首选 。 这 里 ， 
成 本 是 一 方面 的 原因 ; 另 一 方面 , 选用 开源 软件 可 以 很 容易 地 根据 自身 业务 特点 进行 定制 开 
发 ， 形 成 企业 的 核心 竞争 力 。 


互联 网 企业 在 使 用 Hadoop 的 同时 也 根据 自身 业务 需求 ， 开 发 出 相关 的 软件 和 工具 ， 不 
断 增 强 Hadoop 软件 功能 和 壮大 Hadoop 的 开发 队伍 。 比 如 Facebook 公司 因为 其 数据 分 析 工 
程 师 只 熟悉 SQL 语言 而 不 熟悉 MapReduce 编程 框架 ， 由 此 众生 Hive 这 样 的 项 目 。 其 初衷 
就 是 实现 SQL 到 MapReduce 的 解释 执行 。Hive 现在 已 经 演化 为 数据 仓库 的 实用 解决 方案 。 
这 从 一 个 侧面 反映 了 软件 开放 源 代码 对 信息 技术 的 巨大 推动 作用 。 


国内 的 大 数据 计算 技术 和 产业 发 展 应 该 从 开源 文化 中 汲取 经 验 , 重视 开源 软件 ,以 开源 
软件 为 基础 形成 核心 竞争 力 。 天 现 大 数据 处 理 引 擎 的 研发 就 是 遵循 了 这 一 原则 ,发 挥 计 算 所 
科研 能 力 强 的 优势 ， 面 向 大 数据 计算 的 技术 需求 ， 解 决 关键 问题 ， 形 成 关键 技术 。 利 用 开源 
的 Hadoop 作为 平台 ， 集 成 整合 并 回馈 开源 社区 ， 从 而 达到 天 珊 大 数据 处 理 引 擎 软件 生态 环 
境 的 良性 循环 和 良性 发 展 。 

如 图 4 所 示 ，, 天 丽 大 数据 处 理 引 擎 的 特点 是 : 针对 企业 计算 领域 的 大 数据 生产 需求 ， 兼 
容 传统 关系 数据 库 操作 接口 ， 支 持 流 式 计 算 、 图 计算 等 模式 。 文 持 EB 级 数据 分 布 式 存储 及 
离线 式 非 线 性 处 理 能 力 ，PB 级 数据 在 线 式 处 理 能 力 ， 达 到 每 秒 千 万 记录 级 流 式 处 理 能 力 。 


过 


” 指 一 组 通常 一 起 使 用 来 运行 动态 网 站 或 者 服务 器 的 自由 软件 ，Linux 操作 系统 Apache 〈 阿 帕 奇 ) 网 页 服 
务 器 、MySQL 数据 管理 系统 、PHP 脚本 语言 
”一 个 高 性 能 的 分 布 式 的 内 存 对 象 缓存 系统 
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达到 这 样 的 目 
难点 和 难题 


Ko, 
软件 栈 和 生态 环境 。 


与 情 应 用 


标 需 要 攻克 统一 存储 、 
最 终 逐 步 建立 起 包含 模型 、 算 法 、 接 口 、 


查询 引擎 、 隔 离 机 人 


剖 、 


自动 化 运 维和 软 硬 伯 
发 库 等 在 内 的 天 丽 大 数据 处 理 引擎 
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F 一 体 等 技术 


商业 智能 、 数 据 挖掘 


面向 应 用 的 数据 处 理 接 口 封装 和 工具 集 


数据 访问 接 捍 (RESTAPE:SQDD 


离线 分 析 (Hive) 


流 式 处 理 /在 线 分 析 ( 天 现 Base) 


Adhoc 处 理 


分 布 式 计 算 框架 (MapReduce::SQE2MR: :天 现 Base 分 布 式 查询 引擎 …) 
资源 隔离 /数据 隔离 /性 能 隔离 
其 他 存 全 


硬件 加 速 


权限 控制 


分 布 式 资源 管理 (监控 、 调度 :故障 恢复 等 ) 


图 4. 天 


丽 大 数据 处 理 


引擎 逻辑 组 成 


4 “天 现 大 数据 计算 关键 技术 研发 


到 内 的 高 校 和 科研 院 所 基于 Hadoop 在 数据 存储 、 资 源 


管 至 


系统 高 可 用 性 


社 
2 本 儿 


理 引 擎 的 核心 沈 争 力 。 


4.1 行列 混合 式 数据 存储 技术 


E 和 安全 性 等 方面 开 


Hive 是 基于 Hadoop 的 一 个 数据 仓库 工具 。 


行 存 储 和 读 取 , 因 


展 了 研究 了 
区 。 近 两 年 ,我 们 主要 在 数据 的 存储 和 索引 等 技术 上 开展 下 


[ 作 ， 相 关 丰 


究 成 果 多 以 开 
究 工作 ， 


在 Hive : 


E、 作 业 调 度 、 性 能 分 析 优 化 、 


源 形式 贡献 给 Hadoop 
形成 了 天 丽 大 数据 处 


， 绝 大 部 分 操作 都 需要 对 数据 进 
此 Hive 的 数据 存储 格式 及 访问 方式 会 极 大 地 影响 Hive 的 运行 效率 。 之 前 ， 


Hive 中 采用 SequenceFile 文人 
7 取 的 方式 来 访问 数据 ， 当 


行 
的 数据 ， 效 率 很 低 。 


[格式 来 管理 


要 读 取 茶 一 图 


大 
需要 


I 时 


RCFile 是 要 研究 一 种 太 


J 以 按 行 和 列 两 种 方式 访问 数据 的 存 


EE 数据 。 SequenceFile 采用 行 存储 ， 只 能 按照 行 存 、 
E 取 出 所 有 数据 , 然后 


从 中 提取 出 菜 一 列 


嵌 模 式 ， 有 


日 以 提高 Hive 访问 


数据 的 效率 。RCFile 是 一 种 以 属性 〈 列 ) 值 顺序 存储 记录 集 的 数据 表 存 储 格式 。 该 存储 结 
构 可 以 按 查 询 需 要 读 取 记 录 中 的 属性 数据 , 并 支持 以 列 数据 为 单位 的 数据 压缩 机 制 和 查询 运 
算 执行 方法 。 由 于 数据 仓库 应 用 中 查询 押 需 属性 常常 少 于 数据 表 全 部 属性 ， 列 存储 结构 可 以 
有 效 提高 查询 处 理 效率 。 

假设 有 一 个 数据 表 Relation， 利 用 传统 的 二 进 制 行 存储 技术 进行 存储 ， 则 会 按照 一 行 一 


行 的 方式 将 数据 表 中 的 数 


切片 ， 以 列 顺序 来 储存 一 个 行 分 组 


居 存 储 下 来 ， 存 人 
利用 RCFile 的 存储 格式 进行 存储 则 首 


日 


格式 如 下 图 (上 〉 所 示 。 
先 将 记录 分 到 不 同 的 行 分 旨 


中 ， 然 后 将 行进 行列 


分 作为 一 个 整体 存 起 来 ， 然 后 顺序 存储 分 组 内 每 列 的 数 ] 


的 所 有 数据 。 在 每 个 分 组 中 ， 首 多 
据 值 。 


E 将 所 有 的 元 数据 值 部 


此 外 ，RCFile 采用 了 逐 列 压缩 技术 ， 即 每 个 行 分 组 内 每 列 数据 单独 进行 压缩 。 这 一 技 


术 的 优点 看 


E 于 只 需要 对 碍 询 所 需要 的 列 进行 解 有 


E 


E 处 理 。 


的 如 
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E 于 同时 发 挥 数 据 月 


E 缩 和 列 存 储 


天 丽 大 数据 


仿 


理 引 擎 关键 技术 及 应 用 


技术 的 优势 。 存 储 格式 如 图 5《〈 下 ) 所 示 。 


S Fil 
| edquencerlle 16 字 节 记录 
数据 表 同步 编号 


relation 


压缩 键 什 压缩 键 值 
1011111 121 131 长 度 数据 
102|112 122 132 压缩 值 长 度 
103|113 123 133 二 
104|114 124 134 压缩 值 数据 


105|115 125 135 (101,111,121,131) 
(102,112,122,132) 


( ) 
(105,115,125,135) 


数据 表 


relation 


行 分 组 


101,102,103,104,105 

111,112,113,114,115 
DD 121,122,123,124,125 
131,132,133,134,135 


101|111 121 131 
102|112 122 132 


103|113 123 133 
104|114 124 134 
105I115 125 135 


图 5. Hive 中 数据 存储 格式 对 比 ，SequenceFile (上 ) RCFile (下 ) 


我 们 在 Hadoop( 版 本 0.20.1) 和 Hive 配套 版 本 上 对 RCFile 进行 测试 。 测 试 环境 : 6 节 
点 ,每 节点 配置 为 :6GB 内 存 .2 路 双核 AMD Opteron(tm) 2000 MHz CPU、Linux 2.6.18-128.el5 
x86_64running CentOS release 5、 千 兆 以 太 网 互联 。 实 验 结果 表明 , 相对 于 原来 的 SequenceFile 
格式 ，RCFile 可 以 节省 25% 的 存储 空间 ， 并 且 性 能 也 提高 30%。 


RCFile 的 实现 代码 现 已 贡献 给 Hive 开源 项 目 ， 并 已 经 应 用 于 Facebook 公司 的 
Hadoop 生产 系统 。 经 Facebook 公司 实测 可 节约 存储 空间 25%。 与 Apache Hive 数据 仓库 
系统 之 前 缺 省 使 用 的 行 存储 技术 (SequenceFile) 相 比 ，RCFile 在 不 影响 查询 性 能 的 前 提 下 
节省 高 达 20% 的 磁盘 空间 ， 与 雅虎 公司 开发 的 数据 分 析 系 统 (Apache Pig) 中 的 列 组 存储 
技术 相 比 ，RCFile 在 磁盘 利用 率 相 当 的 情况 下 可 以 将 数据 加 载 性 能 提高 23% 左右 。 
0.4.0 版 开始 , RCFile 已 经 集成 到 Apache Hive, 用 以 替换 SequenceFile 成 为 缺 省 的 二 进 制 
数据 存储 结构 。 据 了 解 ， 从 2009 年 起 ， 国 际 上 和 中 国境 内 使 用 Apache Hive 的 很 多 互联 网 
公司 逐步 转向 使 用 RCFile 存储 数据 。RCFile 已 经 成 为 诸如 Apache Hive 的 分 布 式 离线 数 
据 分 析 系统 中 数据 存储 结构 的 事实 标准 。 

4.2 互补 式 聚 艇 索引 技术 

随 着 网 络 应 用 数据 量 的 不 断 增 大 , 为 了 满足 高 读 写 性 能 、 低 存储 开销 和 高 可 靠 性 的 要 求 。 

谷歌 提出 了 以 BigTable 为 代表 的 列 存 储 结构 ， 其 特点 是 数据 按 主 键 顺序 存储 ， 同 时 数据 又 


按 主 键 被 分 片 到 大 量 数据 结 点 处 理 ,从 而 为 各 种 应 用 提供 海量 数据 上 低 响应 时 间 、 高 否 吐 量 
的 数据 存 取 服 务 。 
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个 


HBase 是 Hadoop 中 BigTable 的 
下 单个 维度 〈 仅 仅 是 主键 ) 


源 实现 ， 是 一 种 适用 于 海量 数据 〈TB 到 
区 间 查 询 的 数据 库 系统 。HBase 可 以 按 主 键 迅 速 定位 数据 ， 同 时 
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PB 级 ) 


Letter 


还 文 持 主键 上 高 吞吐 量 的 范围 查询 。 但 是 实际 应 用 ， 
序 以 支持 多 个 维度 的 区 间 查 询 。 目 前 HBase 中 


索引 方法 来 实现 以 上 功能 。 


原 表 
| foal mo 


往往 要 将 数 
还 没 能 提供 一 种 查询 速度 快 、 存 储 开 和 


居 按 多 个 不 同 的 属性 进行 排 
表 低 的 


互补 聚 徐 索 引 表 2 
key2=idx2+id+idx2Length 


为 了 满足 


法 和 系统 。 提 供 多 个 索引 表 以 对 需要 检索 的 属性 列 按 序 存 储 《〈 互 补 )， 
有 的 记录 数据 


Lo ape 

a evalioxal 

NN 

和 YW 郡 

互补 校 验 表 0 

有 副本 的 。 ”互补 聚 比索 引 表 1 
| 互补 校 验 表 2 
有 副本 的 
有 


Vy 


索引 列 


数据 列 


互补 校 验 表 1 
有 副本 的 


图 6. CCIndex 数据 表 逮 辑 结构 示 意图 
海量 数据 上 的 多 维 区 间 检 索 的 需求 ， 我 们 基于 HBase 实现 了 互补 聚 复 索 引 方 


并 在 索引 表 中 存储 所 
( 聚 得 )。 这 样 在 进行 多 维 区 间 查 询 时 ， 就 可 以 直接 从 索引 表 中 取得 数据 ， 从 


而 大 大 提高 碍 
层 的 数据 备份 , 使 用 索引 表 中 保存 的 数据 做 记录 级 的 数据 恢复 , 保证 


询 速 度 。CCIndex 数据 表 逻 辑 结 构 见 图 6。 同时 CCIndex 方法 屏蔽 了 HBase 底 
了 少量 增加 存储 开销 的 


同时 大 幅 提高 查询 速度 。 
CCIndex 方法 具体 包括 以 下 三 方面 内 容 : 


数据 组 
让 


A 
聚 艇 


CCIndex 方法 把 用 于 备份 数据 的 副本 组 织 成 为 多 份 互 为 补充 和 校 验 的 互 
索引 表 ， 利 用 索引 表 上 高 效 的 连续 扫描 代替 原 表 上 的 随机 读 取 ， 从 而 大 怖 


日 织 : 


高 多 


区 间 查 询 性 能 。 
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- 和 碍 询 处 理 和 优化 : CCIndex 方法 首先 将 查询 串 转 换 为 查询 计划 树 ， 对 查询 语句 进行 
去 重合 并 等 简单 优化 。 然 后 基于 HBase 的 分 片 信息 对 子 查 询 的 结果 集 的 大 小 进行 估 

算 ， 最 后 挑选 最 小 子 查 询 在 对 应 的 罕 簇 索引 表 上 执行 查询 过 程 。 

一 ”数据 恢复 : CCIndex 在 互补 校 验 表 中 保存 各 索引 表 数 据 主键 的 对 应 关系 ， 通 过 互补 
聚 秘 索引 表 和 互补 校 验 表 进行 数据 增 量 恢复 ， 保 证 了 与 通过 数据 副本 进行 数据 恢复 
时 相同 的 可 恢复 性 同时 仅 少 量 增加 存储 开销 。 


区 MySQL 机 群 (30M) 
国 MySQL 机 群 (50M) 

国 MysQL 机 群 (7OM) [5 CClIndex (70M) 
ES MysQL 机 群 (90M) 国 ccindex (90M) 
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E 二 级 索引 
CClIndex 


Dh 


吞吐 率 (1 04 记 录 / 秒 ) 


[A 
bp 
索 四 
pg 
pg 


0 10 20 30 40 50 图 三 
吞吐 率 (103 记 录 / 秒 ) “与 "查询 “或 "查询 


7. CCIndex 的 微 基准 测试 ( 左 ) 与 综合 测试 ( 右 ) 结 


口 
Eq 


而 


在 微 基准 测试 中 ，CCIndex 与 IndexTable (HBase 中 二 级 索引 方法 的 实现 ) 相 比 ， 索 引 
查询 速度 提高 11.4 倍 ， 顺 序 写 和 随机 写 的 速度 分 别提 高 1.5 倍 和 2.2 倍 。 微 基准 测试 环境 由 
3 个 节点 组 成 ， 每 节点 包含 两 颗 双 核 CPU，2000 MHz dual-cores AMD Opteron™ Processor 
270,6 GB 内 存 , 321 GB RAID5 SCSI 硬盘 , 千 兆 以 太 网 互联 , 操作 系统 为 Linux 2.6.18-128.el5 


X86_64running CentOS release 5， 测 试 数据 集 为 100 万 条 长 度 为 1KB 的 随机 数 。 


在 综合 测试 中 ， 我 们 将 监控 应 用 Nagios 产生 的 数据 按 “ 时 间 ”“CPU 负载 和“ 网络 流 
量 ” 和 “集群 号 ”四 个 属性 建立 索引 。 在 实际 应 用 中 比较 CCIndex 与 MySQL Cluster 区 间 查 
询 时 的 吞吐 量 。 综 合 测试 环境 由 16 个 节点 组 成 ， 总 计 64 核 ，96GB 内 存 ， 其 中 单个 节点 配 
置 与 微 基 准 测试 一 致 ， 除 了 改 用 186GB RAID1 SCSI 磁盘 。 数 据 集 为 集群 监控 系统 产生 的 
1.2 亿 条 数据 ， 单 条 记录 的 平均 长 度 为 118 字 节 。 


实验 结果 表明 执行 以 ORC“ 或 ”) 连 级 的 区 间 查 询 时 CCIndex 的 吞吐 量 为 MySQL Cluster 
的 1.9 倍 。 执 行 以 AND “与”) 连 级 的 区 间 查 询 时 ，CCIndex 的 吞吐 量 为 MySQL Cluster 
的 2.1 倍 。 
查询 举例 : 
OR: CPU Utilization > 0.8 or CPU Utilization < 0.3 or 


ClusterID > 3。 
AND:CPU Utilization >0.3 and CPU Utilization <0.9 and Cluster 


ID > 3。 


目前 我 们 已 经 在 集群 系统 监控 应 用 中 使 用 了 CCIndex 技术 ， 使 监控 系统 在 处 理 数据 规 
模 和 速度 两 方面 得 到 显著 提升 。 结 合 淘宝 公司 “数据 魔方 ”实时 数据 分 析 系 统 的 实际 需求 ， 
作为 其 全 属性 实时 计算 系统 的 核心 ，CCIndex 技术 经 适 配 和 优化 后 ， 已 集成 到 生产 系统 中 
投入 实际 运行 。CCIndex 增强 了 全 属性 实时 计算 系统 的 扩展 性 和 性 能 。 目 前 ， 系 统 处 理 的 
数据 条 目 超过 100 亿 。 采 用 CCIndex 技术 后 ， 在 硬件 规模 保持 不 变 的 前 提 下 ， 系 统 处 理 
的 数据 时 效 范围 从 原来 的 7 天 增 大 到 3 个 月 ,处理 容量 增 大 了 一 个 数量 级 ,系统 吞吐 率 增 
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大 了 7 倍 ， 对 原来 延迟 大 于 1s 的 查询 请 求 啊 应 时 间 平 均 降 低 了 57.4%。 
4.3 基于 硬件 加 速 的 流 式 透明 压缩 技术 


当前 的 分 布 式 文件 系统 一 般 采 用 多 副本 的 策略 。 在 大 规模 机 群 中 , 这 会 带 来 不 可 忽略 的 
巨额 存储 开销 。 同 时 ， 对 于 分 布 式 文件 系统 之 上 的 系统 或 应 用 ， 如 分 布 式 数据 库 、 分 布 式 数 
据 仓 库 、MapReduce 框架 或 其 它 应 用 ， 也 有 可 能 会 产生 见 余 数据 。 这 样 ， 会 使 得 数据 的 脱 
胀 率 更 高 ， 读 写 性 能 瓶颈 问题 更 为 凸显 ， 现 有 的 分 布 式 文件 系统 难以 同时 满足 高 性 能 、 高 可 
靠 性 和 低 存 储 开销 的 需求 。 


通过 对 分 布 式 文件 系统 之 上 应 用 的 类 型 进行 分 析 可 以 知道 , 这 些 应 用 使 用 或 产生 的 大 部 
分 数据 是 文本 信息 , 特别 是 离线 或 在 线 分 析 系 统 中 的 数据 基本 都 是 文本 。 而 文本 本 身 是 一 种 
高 度 可 压缩 的 数据 , 因此 通过 引入 一 种 快速 的 数据 压缩 方法 , 可 以 有 效 降低 数据 的 存储 开销 ， 
提高 磁盘 和 网 络 读 写 的 有 效 带 宽 ， 从 而 提高 应 用 的 吞吐 量 。 


传统 的 压缩 方法 ， 如 GZip， 在 压缩 或 解压 缩 过 程 中 会 占用 大 量 的 CPU 资源 ， 使 系统 的 
处 理 能 力 受 到 较 大 的 影响 。 昌 然 压 缩 能 使 系统 的 存储 开销 减 小 , 但 也 有 可 能 会 使 系统 的 处 理 
~ 能 力 下 降 。 随 着 便 件 技术 的 发 展 ， 可 以 使 用 便 件 设备 来 压缩 数据 ， 达 到 分 流 CPU 负载 和 提 
O) 高 压缩 处 理 效率 的 目的 ,我 们 的 解决 方法 提供 一 种 分 布 式 文件 系统 上 的 基于 人 硬件 加 速 卡 的 流 
式 透 明 压缩 技术 , 在 占用 少量 系统 资源 的 情况 下 ， 完 成 对 用 户 透 明 的 压 绑 和 解压 缩 过 程 ， 能 
3 够 有 效 降 低 系 统 的 存储 开销 和 提高 系统 的 处 理 能 力 。 


C9 Swift 文件 系统 (SwiftFS) Swift 文 件 系统 
过 方案 首先 采用 硬件 加 速 卡 来 对 - 2 Mi | 
内 存 缓冲 区 进行 压缩 或 解压 | 应 |_,| | 洋 层 次 庄 缩 | 


全 缩 。 加 速 卡 具 有 并 行 处 理 能 力 ， 压轴 及 效 与 负 卉 分 关上 沁 | 
N 压缩 效率 高 ， 压 缩 或 解压 缩 过 HN MM |。 三 未 吕 / 大 让 
硬件 


Ne 程 只 消耗 少量 的 CPU 资源 。 其 
| 次 ， 数 据 的 压缩 或 解压 缩 对 于 压缩 /解压 缩 
用 户 是 完全 透明 的 ， 无 论 是 写 
= 入 或 读 取 数 据 ， 都 可 以 提高 磁 
9) 盘 和 网 络 读 写 的 有 效 带宽 。 此 
外 ， 采 用 分 片 式 压 缩 格式 ， 将 
文件 分 成 大 小 为 64KB 的 分 片 
Cchunk)， 能 达到 较 好 的 压缩 
效果 ， 而 且 硬 件 加 速 卡 只 需要 
很 小 的 缓存 。 每 一 个 分 片 ， 在 
真实 的 压缩 数据 之 前 是 该 分 片 
的 头 部 信息 ， 包 括 : 原始 数据 
大 小 和 压缩 数据 大 小 。 最 后 ， 
二 上 己 日 化 从 其 

1 ， 基于 硬件 加 速 卡 的 流 式 透明 压缩 原型 的 系统 结构 医 
装 原 有 的 输入 流 或 输出 流 , 创建 压缩 或 解压 后 的 输入 流 或 输出 流 。 如 果 硬 件 加 速 卡 出 现 故 障 ， 
采用 软件 压缩 /解压 缩 ， 形 成 良好 的 容错 机 制 。 


原型 的 系统 结构 如 图 8 所 示 。 因 为 Apache HDFS 是 Google GFS 的 开源 实现 , 是 Hadoop 
生态 圈 各 组 成 部 分 的 公共 基础 ， 所 以 我 们 采用 基于 Apache HDFS 实现 基于 硬件 加 速 卡 的 流 
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| | 数据 块 | | 数据 志 


天 珊 大 数据 处 理 引擎 关键 技术 及 应 用 


式 透 明 压 缩 的 方案 。HDFS 之 上 的 应 用 使 用 HDFS 客户 端 来 号 入 或 读 取 文 件 。 默 认 情况 下 ， 
每 个 文件 被 分 成 大 小 为 64MB 的 数据 块 。 这 些 数 据 块 存储 在 不 同 的 数据 节点 上 ， 每 个 数据 
块 有 3 个 副本 。 基 于 硬件 加 速 卡 的 流 式 透 明 压 缩 器 位 于 客户 端 和 数据 节点 之 间 。 客户 写 入 数 


据 时 ， 数 据 先 经 过 压缩 再 发 送 到 数据 节点 ; 客户 读 取 数 据 时 ， 


先 将 从 数据 节点 读 取 的 数据 进 


行 解压 缩 后 再 返回 给 客户 端 。 HDFS 之 上 的 应 用 也 可 以 侥 用 独立 的 基于 硬件 加 速 卡 的 流 式 下 
明 压 缩 器 对 数据 进行 压缩 后 再 写 入 到 HDFS 中 ， 通 过 不 同 的 使 用 方式 来 满足 不 同 的 需求 。 


借助 硬件 加 速 卡 ， 压缩 过 程 只 占用 少量 CPU 资源 ， 能 够 分 


259%6 左 右 ， 有 效 降低 了 存储 开销 ， 将 磁盘 的 有 效 带宽 提高 了 4 
透明 ， 因 此 基于 HDFS 的 在 线 或 离线 数据 分 析 系 统 〈HBase、 


> 流 达 20%~30% 的 CPU 负载 ， 


压缩 处 理 知 吐 率 高 于 磁盘 读 写 带 宽 。 从 目前 测试 效果 看 来 ， 对 于 真实 的 数据 ,压缩 比 大 约 为 


到 5 倍 。 压缩 过 程 对 上 层 应 用 
Hive 等 ) 都 可 以 方便 地 使 用 。 


该 项 技术 已 经 随 天 丽 大 数据 处 理 一 体 机 广泛 应 用 到 政府 、 国 防 、 安 全 和 公安 等 部 门 ， 大 大 提 


高 了 海量 数据 处 理 的 计算 效率 ， 同 时 节省 了 存储 空间 。 
5 “天 现 大 数据 处 理 引 敬 典型 应 用 
5.1 读 写 分 离 统计 分 析 型 应 用 


结合 淘宝 的 数据 魔方 在 线 系 统 的 实际 需求 ， 作 为 数据 魔方 全 属性 实时 计算 系统 的 核心 ， 


天 现 大 数据 处 理 引 擎 的 重要 组 件 一 天 现 Base 已 上 线 投入 实际 
骨 能 够 直接 迁移 到 经 改进 的 HBase 上 ， 同 时 增强 了 全 属性 实 


决 了 诸如 HBase 等 当前 主流 的 列 复式 NoSQL 数据 库 系统 在 多 


运行 ， 使 淘宝 网 原 有 的 业务 好 
时 计算 系统 的 扩展 性 和 性 能 


目前 ， 该 实时 计算 系统 处 理 的 数据 记录 超过 108 亿 。 天 丽 Base 的 索引 及 分 布 式 查询 技术 解 


列 查 询 上 的 功能 缺失 和 性 能 低 


下 的 问题 ， 通 过 融合 各 种 索引 技术 及 联合 优化 ， 可 以 对 NoSQL 中 数据 非 主键 列 进行 定位 和 


查询 ， 从 而 弥补 了 NoSQL 与 传统 关系 数据 库 相 比 查 询 功 能 及 


及 能 力 的 欠缺 。 同 时 利用 服务 端 


计算 技术 ， 可 以 对 海量 烙 据 进行 本 地 化 聚合 计算 而 无 需 进 行 大 量 数 据 拷贝 传输 。 如 此 经 过 强 
化 的 查询 统计 能 力 配合 NoSQL 的 高 扩展 性 及 大 吞吐 量 的 数据 处 理 能 力 ， 使 众多 关系 型 数据 


库 面 对 的 数据 处 理 瓶颈 得 以 克服 。 
5.2 低 延 迟 流 式 处 理 型 应 用 


对 于 用 户 流量 来 源 以 及 用 户 点 击 行为 的 分 析 一 直 以 来 都 是 淘宝 的 “量子 统计 ”提供 的 服 


务 中 最 为 重要 的 组 成 部 分 。 以 往 采 用 传统 技术 只 能 为 用 户 提供 


按 小 时 统计 的 分 析 数 据 ， 即 用 


户 可 查询 店铺 内 某 一 天 的 24 小 时 分 时 段 的 数据 报表 。 其 内 容 
数 及 来 源 和 店内 浏览 路 径 。 而 采用 天 珊 Base 进行 数据 流 式 存 


包括 各 时 段 用 户 浏览 量 、 访 客 
储 和 统计 之 后 ， 店 主 可 以 实时 


地 看 到 当前 正在 浏览 客户 的 实时 点 击 行为 。 新 系统 实时 地 收集 分 析 了 淘宝 全 网 用 户 点 击 日 
志 ， 统 计 内 容 包 括 淘 宝 300 万 店铺 的 实时 UV?、PVY 值 ， 并 能 绘制 出 淘宝 网 日 均 1.2 亿 用 户 


的 实时 点 击 行为 图 示 ， 最 后 将 这 些 信息 分 类 推送 给 相关 店主 。 


整个 系统 的 数据 处 理 延 时 仅 为 


2 至 3 秒 。 实 际 日 志 处 理 量 为 3 万 至 5 万 记录 每 秒 ， 每 天 20 亿 记 录 ， 数 据 写 入 操作 为 15 至 


25 万 次 每 秒 ， 单 日 原始 数据 量 为 600GB， 存 储 一 周 用 户 数据 则 原始 数据 量 为 4TB 左右 。 


5.3 大 并 发 访问 型 应 用 
腾讯 网 是 目前 中 国 最 大 的 互联 网 综合 服务 提供 商 , 也 是 中 


国 服务 用 户 最 多 的 互联 网 企业 


一 。 截 至 2011 年 9 月 30 日 ，QQ 即时 通信 的 活跃 账户 数 达 到 7.117 亿 ， 最 高 同时 在 线 帐 


9 ,oque visitor 访 问 东 个 站 点 或 点 击 东 条 新 闻 的 来 自 不 同 IP 地 址 的 人 数 
0 page view, 页 面 浏览 量 ， 或 点 击 量 
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户 数 达 到 1.454 亿 。 其 数据 平台 一 直 致 力 于 发 掘 用户 数据 的 价值 ， 为 用 户 提供 更 为 精准 的 个 
性 化 服务 。 广 点 通 即 数据 平台 核心 产品 之 一 , 旨 在 根据 用 户 访问 数据 提高 平台 广告 推送 效率 。 


面向 海量 用 户 访问 数据 的 实时 存储 查询 系统 是 广 点 通 智能 推荐 系统 的 基础 。 全 内 存 分 布 
式 的 天 珊 Base 优化 了 线 上 系统 查询 性 能 ， 提 高 了 存储 层 数据 访问 效率 ， 大 幅 减 轻 集 群 内 部 
网 络 压力 , 提高 了 广 点 通 整体 性 能 , 并 成 功 文 持 了 对 存储 性 能 要 求 更 高 的 复杂 用 户 推荐 算法 。 
新 系统 经 过 相应 优化 之 后 ， 实 测 单机 查询 性 能 提升 20 倍 ， 占 用 服务 器 数量 缩减 为 原 系统 的 
15， 日 均 处 理 日 志 数 量 30 亿 记 录 ， 处 理 用 户 请 求 数量 达 25 亿 次 。 


6 ”结语 


Hadoop 是 大 数据 计算 领域 的 一 项 具体 技术 ， 一 套 软件 系统 和 工具 。 因 其 开源 而 对 推动 
大 数据 计算 技术 发 展 起 到 了 重要 作用 。 面 向 不 同 的 应 用 需求 ， 基 于 Hadoop 的 数据 处 理工 
具 也 应 运 而 生 。 天 现 大 数据 处 理 引 擎 集成 了 Hadoop 生态 环境 中 成 熟 且 社区 活跃 的 组 件 ， 如 
Hive、HBase 等 ， 并 整合 了 天 珊 团 队 的 众多 研究 成 果 ， 如 RCFile、CCIndex、SwiftFS 等 ， 
可 以 满足 与 情 分 析 、 社 会 计算 、 商 业 智 能 和 数据 挖掘 等 大 数据 处 理 的 实际 需求 。 可 以 预见 ， 
大 数据 计算 的 出 现 将 催生 更 多 、 更 好 、 更 面向 大 众 的 新 应 用 ， 而 新 应 用 的 出 现 更 能 够 加 快 大 
数据 计算 技术 发 展 的 步伐 。 
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